Inferência Estatística para Ciência de Dados

1 Funções Limites e Continuidade

1.1 Use o \(\texttt{R}\) ou \(\texttt{python}\) para desenhar o gráfico das seguintes funções.

Para resolver os exercícios seguintes é necessário estipular um grid (uma sequência) de valores para x e aplicar na função solicitada. O que é necessário prestar atenção é o domínio de cada função. Por exemplo, a raiz quadrada \(\sqrt{x}\) não aceita valores negativos, então \(x \ge 0\). Já as funções \(log_e\) e \(log_{10}\) demandam de valores maiores que 0. Para \(f(x) = \frac{x+1}{x}\) recebe valores do \(-\infty\) até \(+\infty\), exceto o 0. Algumas letras serão resolvidas explícitamente e outras serão feitas de forma conjunta.

  1. \(f(x) = \sqrt{x}\).

  1. \(f(x) = \log(x)\).

  1. \(f(x) = \log_{10}(x)\).

  1. \(f(x) = \exp(x)\).

  1. \(f(x) = \Gamma(x)\).

\[f(x) = \Gamma(x) = (x-1)!\]

  1. \(f(x) = \frac{1}{x}\).

Note como essa função não aceita o valor de 0 para x, não existe valor da f(x) para x = 0.

  1. \(f(x) = |x-1| + 2\).

  1. \(f(x) = beta(x,0.5)\).

A função beta pode ser reescrita da seguinte forma:

\[B(x,y) = \frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}\]

  1. \(f(x) = (x-1)^3\).

  1. \(f(x) = \frac{x+1}{x}\).

Novamente, eu opto para colocar o valor de 0 no x para que no gráfico fique evidente que não exista o valor de f(x) para x = 0. Mas é importante lembrar que \(f(0) \nexists\).

  1. EXTRA: Colocar todos os gráficos em uma única janela

Para isso, irei utilizar um único grid de valores para todos os valores de \(x\). As funções cujo para um dado valor de \(x\) elas não existam, serão substituídas por \(NA\).

1.1.1 Gráfico conjunto

A função gamma foi omitida em virtude dos eixos dos gráficos. A partir da figura anterior, é rápido visualizar as características principais de cada função.

1.2 Use o \(\texttt{R}\) ou \(\texttt{python}\) para desenhar o gráfico das seguintes funções. Identifique o que o parâmetro controla da função. Tenha cuidado com o domínio de cada função.

  1. \(f(x; \theta) = 2 \left ( x \log \frac{x}{\theta} - x + \theta \right )\).

Para um conjunto “x” fixado, o \(\theta\) é aquele que minimiza o valor da função

  1. \(f(x; \theta) = \binom{100}{x} \exp \left \{ x \log \frac{\theta}{1-\theta} + 100 \log (1 - \theta) \right \}\).

O valor de \(\theta\) é aquele que maximiza o valor da função.

  1. \(f(x; \theta) = 2\left ( \frac{x}{\theta} - \log \left \{ \frac{x}{\theta} \right \} -1 \right )\).

O valor de \(\theta\) é aquele que minimiza o valor da função.

  1. \(f(x; \theta, p) = 2\left \{ \frac{x^{(2-p)}}{(1-p)(2-p)} - \frac{x \theta^{(1-p)}}{1-p} + \frac{\theta^{(2-p)}}{2-p} \right \}\).

Para essa função, é necessário que 1 < p < 2. O valor de \(\theta\) controla o mínimo da função, enquanto que \(p\) controla o peso que a função aloca para valores próximos de 0 para x (quanto maior o valor de p, maior o peso para menores valores de x)..

  1. \(f(x; \theta, p) = 2\left \{ 1- \cos(x - \theta) \right \}\).

Como a função cosseno é periódica, o valor de \(\theta\) indica a periodicidade da função cosseno.

1.3 Obtenha o limite e esboçe o gráfico.

  1. \(\lim_{x \to 0 } ( \sqrt{x} + x)\).

Para resolver esse limite, basta substituir o valor 0 no x, pois não gera nenhuma indeterminação.

\(\lim_{x \to 0 } ( \sqrt{x} + x) = \sqrt(0) + 0 = 0 + 0 = 0\)

A função existe para x = 0, e vale 0.

  1. \(\lim_{x \to 2 } \frac{x^2 + x}{ x + 3}\).

\(\lim_{x \to 2 } \frac{x^2 + x}{ x + 3} = \frac{2^2 + 2}{2+3} = \frac{6}{5} = 1.2\).

A função existe para esse ponto, e é 1.2.

  1. \(\lim_{x \to 2 } \frac{x^2 - 4}{ x - 2}\).

Nessa função é necessário realizar fatoração de polinômios, isto é, reescrever o polinômio de maior ordem em termos do negativo das suas raízes, uma vez que \(f(2)\) resulta em uma indeterminação.

\(\lim_{x \to 2 } \frac{x^2 - 4}{ x - 2} = \lim_{x \to 2 } \frac{(x-2)(x+2)}{x-2} = \lim_{x \to 2} x+2 = 2\).

Uma das formas de realizar a fatoração de polinômio é através do algoritmo de \(Briot-Ruffini\) ou tentar a utilização de raízes de forma direta (e como esse exercício é de limites, a escolha natural para o valor da raíz do polinômio seria o próprio valor do limite).

O valor de \(f(2)\) tende a 4.

  1. \(\lim_{x \to -1 } \frac{x^2 - 1}{ x + 1}\).

\(\lim_{x \to -1 } \frac{x^2 - 1}{ x + 1} = \lim_{x \to -1 } \frac{(x-1)(x+1)}{ x + 1} = \lim_{x \to -1 } x + 1 = -1 -1 = -2\)

O valor do limite da função quando x tende a -1 é -2.

  1. \(\lim_{x \to 0} \sin(x)\).

\(\lim_{x \to 0} \sin(x) = sin(0) = 0\)

A função existe para x tendendo a 0, e é igual a 0.

1.4 Usando a definição intuitiva de limite esboçe o gráfico das seguintes funções e avalie se são ou não contínuas.

  1. \(f(x) = \sqrt{x}\) em \(x = 0\).

É contínua

  1. \(f(x) = \frac{x^2 - 4}{x-2}\) em \(x = 2\).

Não é contínua.

  1. \(f(x) = \left\{\begin{matrix} x \quad \text{se} \quad x < 1 \\ \frac{1}{x} \quad \text{se} \quad x > 1 \quad \text{em} \quad x = 1 \end{matrix}\right.\)

É contínua.

  1. \(f(x) = \Gamma(x)\) em \(x = 2\).

\[\Gamma(n) = (n-1)!\]

É contínua.

  1. \(f(x) = \frac{|x-2|}{x-2}\) em \(x = 2\).

\[\Gamma(n) = (n-1)!\]

Não é contínua.

2 Derivadas

2.1 Calcule a derivada das seguintes funções:

Solução: Este exercício pede para calcular derivadas de funções polinomiais. Assim, usaremos uma das quatro fórmulas básicas para derivadas:

  1. Se \(f(x) = c\) então \(f^{\prime}(x) = 0\).
  2. Se \(f(x) = x^n\) então \(f^{\prime}(x) = n x^{n-1}\).
  3. Se \(f(x) = x^{-n}\) então \(f^{\prime}(x) = -n x^{-n-1}\).
  4. Se \(f(x) = x^{1/n}\) então \(f^{\prime}(x) = \frac{1}{n} x^{\frac{1}{n} - 1}\).
  1. \(f(x) = x^4\).

Solução

Pela equação 2, tem-se \[\begin{equation} f^{\prime}(x) = 4 x^{4-1} = 4x^3. \end{equation}\]

  1. \(f(x) = x^3\).

Mesmos passos de a). Resultado = \(3x^{2}\)

  1. \(f(x) = x^{-3}\).

Utilizando a equação 3: \(-3x^{-4} = \frac{-3}{x^4}\)

  1. \(f(x) = \frac{1}{x^5}\).

\[\frac{\partial }{\partial x} \frac{1}{x^5} = \frac{\partial x^{-5}}{\partial x} = -5x^{-6} = \frac{-5}{x^6}\]

  1. \(f(x) = \sqrt{x}\).

\(\frac{\partial }{\partial x} x^{1/2} = ... = \frac{1}{2\sqrt{x}}\)

  1. \(f(x) = \sqrt[3]{x}\).

\(\frac{\partial }{\partial x} x^{1/3} = ... = \frac{1}{3\sqrt[3]{x^{2}}}\)

  1. \(f(x) = x^{1/3}\).

Mesma solução de f h) \(f(x) = \frac{1}{x}\).

\(\frac{\partial }{\partial x} \frac{1}{x} = \frac{\partial }{\partial x} x^{-1} = -x^{-2}\)

  1. \(f(x) = \sqrt[8]{x}\).

Mesmos passos de f). Resposta \(\frac{1}{8\sqrt[8]{x^{7}}}\)

  1. \(f(x) = \frac{1}{x^2}\).

Mesmos passos de h). Resposta: \(\frac{-2}{x^{3}}\)

2.2 Determine a reta tangente ao gráfico de \(f(x)\) no ponto requisitado e esboce o gráfico de \(f(x)\) e da reta tangente.

  1. \(f(x) = \frac{1}{x}\) no ponto de abscissa 2.

Solução

  • Primeiro passo: Obter a derivada de \(f(x)\). Pela Eq. 3 temos que \(f^{\prime}(x) = -x^{-2}\).

  • Segundo passo: Calcular os valores de \(f(x)\) e \(f^{\prime}(x)\) no ponto de abscissa 2. Neste caso temos, \(f(x = 2) = \frac{1}{2}\) e \(f^{\prime}(x = 2) = -\frac{1}{2^2} = - \frac{1}{4}\).

  • Terceiro passo: Obter o intercepto e a inclinação da reta tangente a \(f(x)\). Lembre-se (slide 21) que a reta tangente é dada por \(y - f(x=2) = f^{\prime}(x = 2)(x - 2)\), trabalhando nesta equação tem-se que, \[ y - f(x=2) = f^{\prime}(x=2) x - f^{\prime}(x=2)2 \\ y - \frac{1}{2} = -\frac{1}{4}x + \frac{2}{4} \\ y = -\frac{1}{4}x + \frac{2}{4} + \frac{1}{2} \\ y = -\frac{1}{4}x + 1 \\ \] Sendo, assim temos que o intercepto é \(1\) e a inclinação é \(-\frac{1}{4}\). Podemos fazer o gráfico de \(f(x) = \frac{1}{x}\) e identificar a reta tangente, com o seguinte código .

## [1] 1
## [1] -0.25

  1. \(f(x) = x^3\) nos pontos de abscissa -3 e 3.

  1. \(f(x) = \exp{x}\) no ponto de abscissa 0.

  1. \(f(x) = \log{x}\) no ponto de abscissa 2.

2.3 Calcule a derivada das seguintes funções:

  1. \(f(x) = 4 x^3 + x^2\).

Solução

\[\begin{equation} f^{\prime}(x) = 3*4 x^{3-1} + 2 x^{2-1} = 12 x^2 + 2x. \end{equation}\]

  1. \(f(x) = 5x^4 + 4\).

Mesmos passos de a). Resposta = \(20x^5\)

  1. \(f(x) = \frac{2x + 3}{x^2 + 1}\).

Solução

Usando a regra da divisão temos que a derivada da razão entre \(k(x)\) e \(g(x)\) é dada por \[ \frac{k^{\prime}(x) g(x) - g^{\prime}(x) k(x)}{g(x)^2}.\]

Neste caso temos que \(k(x) = 2x + 3\) e \(g(x) = x^2 + 1\). As derivadas são \(k^{\prime}(x) = 2\) e \(g^{\prime}(x) = 2x\). Substituindo na equação acima temos.

\[ f^{\prime}(x) = \frac{2(x^2 + 1) - 2x(2x + 3)}{(x^2 + 1)^2} = ... = \frac{-2(x^2 + 3x - 1)}{(x^2 + 1)^2} \]

  1. \(f(x) = (3x^2 + 1)\exp^{x}\).

Solução

Usando a regra do produto temos

\[ f^{\prime}(x) = 6x \exp^{x} + \exp^{x}.\]

  1. \(f(x) = \sqrt[3]{x}\). \[f'(x) = \frac{1}{3\sqrt[3]{x^2}}\]
  2. \(f(x) = 5 x^4 + 6 x^3 + x^2 + 2\).

\[f'(x) = 20x^3 + 18x^2 + 2x\]

  1. Calcule a derivada das seguintes funções usando a regra da cadeia.
  1. \(f(x) = \exp{3x}\).

Solução

Chame \(a = 3x\), então pela regra da cadeia temos,

\[ f^{\prime}(x) = \frac{d f(x)}{d a} \frac{d a}{dx} \\ = 3 \exp^{3x}. \]

  1. \(f(x) = \sin{x^2}\).

Uma outra forma, menos formal, de se pensar como resolvar a seguinte derivada, é identificar o elemento “de dentro” e o “de fora”, e então multiplicar as derivadas de tais elementos.

Fazendo \(x^2\) como a derivada de dentro e \(sin(x)\) a derivada de fora, temos:

\[f'(x) = (x^2)'sin'(x^2) = 2x cos(x^2)\]

  1. \(f(x) = (3x^2 + 1)^3\). Solução

Chame \(a = 3x^2 + 1\), então pela regra da cadeia temos

\[ f^{\prime}(x) = \frac{d f(x)}{d a} \frac{d a}{d x} \\ = (3(3x^2 + 1) )(6x) = 18x(3x^1 +1). \]

  1. \(f(x) = \log{(x^2 + 3)}\). Solução

\[f'(x) = \frac{1}{x^2+3}2x\]

  1. \(f(x) = x^2 \exp^{3x}\).

Aqui é necessário aplicar a regra da derivada do produto primeiramente, para-se então aplicar a regra da cadeia:

Regra do produto:

\[(fg)' = f'g + fg`\]

\[f'(x) = (x^2)'(e^{3x})+(x^2)(e^{3x})' = 2xe^{3x} + x^2e^{3x}3 = ... = xe^{3x}(3x+2)\]

  1. \(f(x) = \log{(x^2 + 3x + 9)}\). Solução

Chame \(a = x^2 + 3x + 9\), então pela regra da cadeia temos

\[f^{\prime}(x) = \frac{d f(x)}{d a} \frac{d a}{d x} = \frac{1}{x^2 + 3x + 9} (2x + 3).\]

  1. \(f(x) = \sqrt{x + \exp^{x}}\).

\[f'(x) = (x+e^x)^{1/2} = \frac{1}{2}(x+e^{x})^{-1/2}(1+e^x) = \frac{1+ e^x}{2\sqrt{x+e^x}}\]

2.4 Aproxime as seguintes funções usando a expansão de Taylor de segunda ordem. Esboce o gráfico da função e da aproximação.

  1. \(f(\mu) = \sum_{i=1}^n (y_i - \mu)^2\). Fixe \(y_i = 2.09;-1.32;-0.20;0.05;-0.07\).

A série de Taylor é definida da seguinte forma:

\[\sum_{n = 0}^{\infty}\frac{f^{n}(\mu_0)}{n!}(\mu-\mu_0)^n\]

A expansão de Taylor de segunda ordem, significa realizar a expansão de Taylor até a 2ª derivada (n=2):

\[f(\mu) = f(\mu_0) + (\mu - \mu_0)f'(\mu=\mu_0)+\frac{(\mu-\mu_0)^2}{2!}f''(\mu = \mu_0)\]

Nesse caso, \(y_i\) são os valores fornecidos, \(\mu\) é o grid de valores para o vetor de média e \(\mu_0\) é o valor cujo o qual queremos aproximar através de Taylor.

Primeiro Passo: Obter a 1ª e 2ª derivada de \(f(\mu)\):

\[f'(\mu) = 2\sum_{i=1}^n (y_i - \mu)(-1) = -2\sum_{i=1}^n (y_i - \mu)\]

\[f''(\mu) = (f'(\mu))' = (-2\sum_{i=1}^n y_i)' (-2\sum_{i=1}^n -\mu)' = 0 + (2n\mu)' = 2n \]

Para terminar o exercício, precisamos programar cada função e suas derivadas, bem como colocar os pontos. O grid para \(\mu\) vai de -50 até 50. Iremos aproximar a série de Taylor para os pontos -20 e 0.

Note que para uma função de perda quadrática a aproximação da série de Taylor é exata.

  1. \(f(\mu) =\sum_{i=1}^n 2 \left ( y_i \log \frac{y_i}{\mu} + \mu - y_i \right )\). Fixe \(y_i = 7;4;4;6;5\).

\[f'(\mu) = \frac{-2}{\mu}\sum_{i=1}^ny_i + 2n\]

\[f''(\mu) = \frac{2}{\mu^2}\sum_{i=1}^ny_i\]

  1. \(\sum_{i=1}^n 2 \left ( \frac{y_i}{\mu} - \log \frac{y_i}{\mu} - 1 \right )\). Fixe \(y_i = 2.35;0.16;0.56;1.05;0.51\).

\[f'(\mu) = \frac{-2}{\mu^2}\sum_{i=1}^ny_i + \frac{n}{\mu}\]

\[f''(\mu) = \frac{4}{\mu^3}\sum_{i=1}^ny_i -\frac{n}{\mu^2}\]

  1. \(\sum_{i=1}^n 2 \left ( y_i \log \frac{y_i}{\mu} + (1- y_i) \log \frac{1-y_i}{1-\mu} \right )\). Fixe \(y_i = 1;0;1;1;1\).

\[f'(\mu) = 2\sum_{i=1}^n(\frac{-y_i}{\mu} + \frac{(1-y_i)}{(1-\mu)})\]

\[f''(\mu) = 2\sum_{i=1}^n(\frac{y_i}{\mu^2} + \frac{(1-y_i)}{(1-\mu)^2})\]

  1. \(\sum_{i=1}^n 2 \left ( y_i \log \frac{y_i}{\mu} + (m + y_i) \log \frac{m + \mu}{m + y_i} \right)\). Fixe \(m = 1\) e \(y_i = 7;4;4;6;5\).

\[f'(\mu) = 2\sum_{i=1}^n(\frac{-y_i}{\mu} + \frac{(1+y_i)}{(1+\mu)})\]

\[f''(\mu) = 2\sum_{i=1}^n(\frac{y_i}{\mu^2} + \frac{(1+y_i)}{(1+\mu)^2})\]

2.5 Considerando as funções apresentadas no exercício 5 identifique o ponto de inflexão e verique se é um ponto de máximo ou mínimo.

Todos os pontos de inflexão do exercício 5 referem-se a média amostral dos dados, e correspondem ao ponto de mínimo da função.

3 Integrais

3.1 Calcule as seguintes integrais indefinidas:

  1. \(\int x^3 dx\). Solução

\[ \int x^3 dx = \frac{x^{3+1}}{3+1} = \frac{x^4}{4} + c\]

  1. \(\int \frac{1}{x^2} dx\). \(\int \frac{1}{x^2} dx = \int x^{-2} dx = \frac{-1}{x}+ c\)

  2. \(\int \sqrt[3]{x^2} dx\). \(\int \sqrt[3]{x^2} dx = \int x^{2/3} dx = \frac{3x\sqrt(x^2)}{5} + c\)

  3. \(\int \left ( \frac{1}{x} \right )dx\).

Por definição: \(ln \mid x \mid + c\)

  1. \(\int \left ( \frac{1}{x} + \sqrt{x} \right )dx\).

\[ \int \left ( \frac{1}{x} + \sqrt{x} \right )dx = \int \left ( \frac{1}{x} \right )dx + \int \sqrt{x} dx \\ = \log(x) + \frac{2}{3}x^{2/3}. \]

  1. \(\int \exp^{\alpha x} dx\).

Solução

\[ \int \exp^{\alpha x} dx = \frac{1}{\alpha} \exp^{\alpha x}. \]

  1. \(\int \exp^{2x} dx\).

\(\frac{e^{2x}}{2} + c\)

  1. \(\int 3 dx\).

\(3x + c\)

  1. \(\int \exp^{-x}dx\).

\(-e^{-x} + c\)

  1. \(\int (x + 3\exp^{x})dx\).

\(\frac{x^2}{2}+3e^x + c\)

  1. Calcule as seguintes integrais definidas:
  1. \(\int_{1}^2 x^2 dx\).

\[ \int_{1}^2 x^2 dx = \frac{x^3}{3}|_2 - \frac{x^3}{3}|_1 = \frac{2^3}{3} - \frac{1^3}{3} = \frac{7}{3}. \]

  1. \(\int_{-1}^4 4 dx\). \[ \int_{-1}^4 4 dx = 4 x|_{4} - 4x|_{-1} = 16 - (-4) = 20. \]

  2. \(\int_{0}^2 (x^3 + 3x -1)dx = 12\).
  3. \(\int_{1}^2 \frac{1}{x^2} dx = \frac{1}{2}\).
  4. \(\int_{1}^2 \left ( \frac{1}{x} + \frac{1}{x^3} \right )dx = log(2) + \frac{3}{8}\).

  1. Usando a soma de Riemann (numericamente) calcule as seguintes integrais definidas:
  1. \(\int_{-150}^{150}\exp^{- \frac{(x - 5)^2}{2}} dx\).
## [1] 2.506628
  1. \(\int_{0}^{100} x \exp^{- \frac{x}{5}} dx\).
## [1] 25.00042
  1. \(\int_{0}^{100} \exp^{- \frac{2(x - 5)^2}{27 x}} dx\).
## [1] 20.2696
  1. \(\int_{0}^{100} \exp^{- \frac{|x-5|}{2}} dx\).
## [1] 3.835442
  1. \(\int_{1}^2 \left ( \frac{1}{x} + \frac{1}{x^3} \right )dx\).
## [1] 1.068147

4 Aplicações

4.1 Sejam \(y_i\) valores observados para \(i = 1, \ldots, n\). Considere a função perda absoluta dada por \[ f(\mu) = \sum_{i=1}^n | y_i - \mu|.\]

  1. Usando o \(\texttt{R}\) ou qualquer outro software conveniente, simule um conjunto de valores adequado para \(y_i\).
  1. Esboce o gráfico da função perda para este conjunto de dados e diferente valores de \(\mu\).

  1. Encontre o valor de \(\mu\) que miniza a função perda absoluta.
## Warning in optim(0, fn = f.perda.abs, y = y): one-dimensional optimization by Nelder-Mead is unreliable:
## use "Brent" or optimize() directly
## [1] -0.2375
## [1] -0.2422656

O valor de \(\mu = -0.24\) minimiza a função, que nesse caso é igual a mediana. Note que o optim retornou um valor muito próximo ao da mediana.

  1. Discuta quando a funçao perda absoluta pode ser mais conveniente do que a função perda quadrática.

É mais interessante utilizar a função de perda absoluta em relação a quadrática quando observa-se a presença de outliers no cojunto de dados, isto é, quando alguma observação domina os valores das demais (dados corrompidos).

Observe que no gráfico da perda asboluta, quando \(\mu = -5\), perda = 500, e quando \(\mu = -10\), perda = 1000. Ou seja, a perda foi o dobro quando a média foi alterada em 5 unidades.

Na perda quadrática, para \(\mu = \{-5, -10\}\), teve-se perda igual a 2500 e 10000 respesctivamente. Ou seja, a perda foi 4x maior quando a média foi alterada em 5 unidades.

Dessa forma, fica claro que a perda quadrática é afetada muito mais pelos valores extremos do que a perda absoluta.

https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

4.2 Sejam \(y_i\) e \(x_i\) valores observados para \(i = 1, \ldots, n\). Considere o problema de ajustar uma reta relacionando \(y_i\) com \(x_i\), usando a função perda absoluta \[ f(\beta_0,\beta_1) = \sum_{i=1}^n | y_i - (\beta_0 + \beta_1 x_i)|.\]

  1. Usando o \(\texttt{R}\) ou qualquer outro software conveniente, simule um conjunto de valores adequado para \(y_i\) fixado um vetor para \(x_i\) .

  2. Esboce o gráfico da função perda para este conjunto de dados e diferentes valores de \(\beta_0\) e \(\beta_1\).

  1. Encontre o valor de \(\beta_0\) e \(\beta_1\) que miniza a função perda absoluta.
## [1] 10.223104  2.051528
  1. Discuta quando a função perda absoluta pode ser mais conveniente do que a função perda quadrática.

Idem ao anterior.

25px